(伪)从零开始学转录组:读文章拿到测序数据
往期回顾:
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件
数据下载部分
第一步:在PubMeb上查找文献
第二步: 根据文献的method部分找到RNA-Seq是如何存放的
第三步: 在GEO上查找GSE81916
GEO站点: https://www.ncbi.nlm.nih.gov/geo/
找到了NCBI的SRA工具下载所需要的SRR编号。
GEO网址: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916 分为两个部分:
共同部分:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=
变动部分:GSE81916
FTP网址ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分为以下几个部分
所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
ByStudy表示根据Study进行分类,其他还可以根据实验
ByExp
,根据Run,ByRun
.sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。
第四步:通过循环,分别用prefetch下载数据
for i in `seq 48 62`;
do
prefetch SRR35899${i}
done
prefetch下载的数据一般存放在~/ncbi/sra文件下,prefecth在下载前会先查找该文件下是否已经存在该文件。
sratoolkit的其他软件,比如说fastqdump 在没有根据你给的路径找到文件,也会先进行下载。
知识点:如何用循环批量下载数据
注: 数据很大,需要下载很久,这段时间去看文章所用的分析方法。
除了用prefetch之外还存在其他下载方案。
文章所用方法:
内容主要在Bioinformatic analyses部分
比对:
比对软件:TopHat (v2.0.13)
参考基因组:human reference genome (GRCh37/hg19)
GTF文件: GTF version GRCh37.70
只保留MQ >30的map结果
Picard-tools (v1.126): 计算平均插入大小(mean insert sizes)和标准差
read count: 软件:HTSeq v0.6.0
差异表达分析: DESeq (v3.0)
差异外显子使用分析: DEXSeq (v3.1)
GO富集分析:DAVID (http://david.ncifcrf.gov/).
实验设计:
样本9-15为mRNA-Seq测序结果,用于分析人类293个细胞(9-11)和小鼠ES细胞(12-15)d的AKAP95敲出影响。
原文链接是我简书地址,欢迎加入我的小密圈和我交流。